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У статті запропоновано удосконалення методу розпізнавання емоційного стану людини за 
голосом шляхом розширення множини ознак емоцій. Додано ознаку емоційного акценту 
висловлювання на основі семантичного аналізу. Описано вимоги до модифікації структури системи 
розпізнавання, зображено схему бази онтології та термінів. Проведено числове дослідження, яке 
показало підвищення ймовірності розпізнавання емоцій емоційних станів порівняно із результатами 
без використання семантичного аналізу. 
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Вступ 

Задача розпізнавання емоційних станів людини за її голосом на сьогодні не є 
повністю вирішеною через високу варіативність та індивідуальність проявів емоцій, 
що значно знижує ефективність існуючих методів. 

На відміну від зміни артеріального тиску або частоти скорочення серця, 
характеристики прояву емоцій за голосом є менш помітними, але становлять 
більший інтерес у сфері практичного застосування в медицині та засобах безпеки 
через можливість безконтактної роботи. А використання засобів аудіозапису вигідно 
спрощує реалізацію даних систем у порівнянні із методами розпізнавання низки 
емоцій за зображеннями міміки людини. 

Дана робота ставить за мету удосконалити метод, запропонований у |1Ї. За 
допомогою методу із використанням фразових моделей вдалося досягти рівня 
розпізнавання 3490 -- 5,390 (р 2 0,05) проявів емоцій на множині 20 дикторів. Значну 
кількість помилок розпізнавання зафіксовано через «невпевненість» класифікатора у 
своєму рішенні. Таким чином, у даній статті запропоновано шлях до підвищення 
робастності методу та збільшення розділової відстані між моделями емоційних 
проявів у визначеному ознаковому просторі. 

Постановка задачі 

Із мети даної роботи випливають наступні задачі: 

1. Виконати аналіз недоліків існуючого методу розпізнавання емоційного 

стану за голосом. 
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2. Розробити та описати удосконалений метод розпізнавання проявів емоцій. 

3. Провести чисельне дослідження ефективності удосконаленого методу. 

Аналіз наявних результатів класифікації проявів емоцій 

Для моделювання голосових проявів обрано 7 емоцій з переліку К. Ізарда |21: 
інтерес (ЕП), радість (Е2), страждання (ЕЗ), відраза (Е4), страх (Е5), гнів (Еб), сором 
(Е7). Ці емоції обрані для спрощення реалізації розпізнавання у даній роботі, 
оскільки вони є достатньо різними як за семантикою, так і за проявом. 

Однак була помічена згрупованість помилок розпізнавання між певними 
моделями, що свідчить про недостатню розділову здатність ознак або низьку якість 
навчання моделей для врахування особливостей проявів даних емоцій. Особливо 
наочною дана згрупованість помилок простежується на відповідних графіках 
попарного порівняння ймовірності приналежності тестових зразків до моделей 
емоційних проявів (рисунок 1), де помилковою класифікацією буде та, якій 
відповідає Р.(Е,) » РІ(Е,). 


Р(БЛ) 
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Р(ЕЗ) 


Р(Еб) | б - М Р(Е7) 
в г 


Рис. 1. Графіки попарного порівняння ймовірності приналежності тестових зразків 
до моделей емоційних проявів: а - інтересу та радості, б - страждання та відрази, 
в - страху та гніву, г - страждання та сорому. 


Слід зазначити, ймовірності приналежності тестових зразків до моделей інших 
емоційних проявів були обчислені значно нижчими, тому у своїй більшості не 
впливають на результат розпізнавання. Розглянемо більш детально причини такої 
поведінки класифікатора. 

Для моделювання особливостей прояву емоційних станів було обрано наступні 
параметри: 

1. Нормовані значення енергетичного спектра, відносний час перебування 
сигналу у смугах енергетичного спектра та відносна потужність спектра 
мовлення у смугах. 

2. Значення компоненту гістограми розподілу частоти основного тону (ЧОТ). 

3. Кепстральні коефіцієнти. 
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4. Просодичні характеристики. Основні параметри, які необхідні для 
визначення типу інтонаційної конструкції: 

- початкова та кінцева ЧОТ; 

-- максимальна та мінімальна ЧОТ та час цих значень (у межах контуру); 

- середня частота (усереднене значення ЧОТ у межах контуру); 

- час половини частоти (позиція значення середньої ЧОТ у відсотках від 
довжини усього фрагмента); 

- швидкість зміни тону (середня швидкість зростання чи спаду тону на 
відрізку, Гц/мс). 

5. Екстралінгвістичні події (наявність у фрагментах пауз мовленнєвого 

сигналу кашлю, зітхань, плачу, сміху). 

Виходячи із задачі, недоцільно використовувати ознаки, що значною мірою 
залежать від особливостей диктора. Тому параметри ЧОТ у моделях зазначені не 
абсолютно (в Гц), а відносно (Зо від усередненого значення). Таким чином, у методі 
застосована низка ознак різного роду для максимального охоплення характеристик 
проявів емоцій у голосі, а також частково нівельований вплив індивідуальності 
дикторів на формування моделей емоцій |З, 4. 

Незважаючи на чималий перелік ознак, окремо їх розділова здатність для 
врахування особливостей проявів певних груп емоцій є вкрай низькою. Наприклад, 
прояв інтересу у голосі помітно за зростаючим інтонаційним контуром речень та 
зменшенням пауз між словами до 1290. А у зразках проявів радості швидкість 
вимови має зростання до 5906 1 також наявне зростання інтонаційного контуру. 
Виходячи з цього, моделі, які створені на основі даних характеристик, мають велику 
зону перетину в однаковому просторі, що спричинює похибку при обчисленні 
ймовірності приналежності зразків доданих моделей. Аналогічний перетин значень 
ознак помітний і в інших парах схожих емоційних проявів. 

Для даної задачі використано метод сумішей Гауса, який не спирається на 
специфіку параметрів 1 широко зарекомендував себе з векторами ознак великого 
порядку, зокрема у сфері розпізнавання звукових образів |5|. Модель у просторі 
ознак представляється у вигляді багатовимірного ймовірнісного розподілу та 
описується векторами математичного очікування, коваріаційною матрицею і 
ваговими коефіцієнтами сумішей кожного компонента. 

Отже, проаналізувавши чинники помилок класифікації проявів емоцій, видно, 
що метод потребує удосконалення насамперед у підвищенні розділової здатності 
ознак. Оскільки набір ознак був визначений як оптимальний із множини акустичних 
просодичних та екстралінгвістичних ознак, то набір пропонується розширити 
ознаками іншого роду, які досі не були враховані. Саме такою ознакою є семантична 
складова фрагмента мовлення. Застосування семантичного аналізу гіпотетично має 
не тільки підвищити ймовірність розпізнавання близьких за іншими ознаками 
емоційних проявів, але й дозволить розпізнавати інші тональності емоцій, які 
визначаються виключно за сумісною оцінкою просодики та семантики (наприклад, 
гумор та сарказм). У даній роботі зупинимось на визначеній вище множині проявів 7 
емоцій для порівняльного дослідження із попередньою роботою | 1 |. 

Опис удосконаленого методу 

У першу чергу необхідно внести зміни до схеми системи розпізнавання емоцій за 
голосом |6|. Оновлена структурна схема представлена на рисунку 2. До схеми додано 
базу термінів, за сукупністю яких можливо визначити емоційний акцент висловлювання. 
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Рис. 2. Структурна схема запропонованої системи розпізнавання емоцій за голосом 


Терміни у базі мають бути поєднані між собою у певну онтологію за 
емоційними ознаками, що визначаються у процесі навчання по корпусу текстів. 
Також до схеми додано блок семантичного аналізу, який передує безпосередній 
класифікації проявів емоцій. Результат семантичного аналізу - визначення онтології, 
що є найближчою до заданого висловлювання. 

Важливим є абстрагування текстових термінів від концепцій усередині 
онтології (рисунок 3). Це необхідно для вирішення проблеми синонімів у межах 
мови та розширення концептів термінологією інших мов. 


Рівень текстових Рівень концепцій 


репрезентацій 


пр р І о о о о о о о - 


Рис. 3. Схема абстрагування текстових термінів від концепцій усередині онтології 


Враховуючи наведені вище вимоги до системи розпізнавання емоцій, 
запропоновано наступну структуру бази онтології (рисунок 4). У квадратних дужках 
зазначені необов'язкові поля. 

Запропонована структура дозволяє визначати приналежність висловлювання до 
прояву емоцій не тільки за певними концептами (або термінами, що їх 
репрезентують), а й за взаємозв'язком даних концептів, тобто множиною атрибутів 
між ними. Такий підхід повинен підвищити розділову здатність семантичного 
аналізу емоційних проявів. 
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Рис. 4. Структура бази онтології системи розпізнавання емоцій 


Визначення семантичного зв'язку Т між концепом Кт та онтологією Кх Є 0 
у даному випадку набуває вигляду: 


Т- тіп  р(К.,К,), 
1сіспіє»т 


де п - розмір онтології Кх. 

Числове дослідження ефективності методу 

Числове дослідження виконувалось на базі звукозаписів імітації проявів 7 
емоцій 20 дикторами віком від 22 до 38 років, сформованих за умов, зазначених у 
П). Автоматизоване розпізнавання тексту виконувалось | за допомогою 
загальнодоступного сервісу Сообіе СІоца Зреесі-іо- Техі із ручною корекцією тексту 
для підвищення якості оцінки 4 запропонованого удосконалення, оскільки 
розпізнавання тексту не є метою даної роботи. 

Результати числового дослідження показали рівень правильного розпізнавання 
89906 -- 690 (р « 0,05) проявів емоцій на множині 20 дикторів. Серед 4 підмножин 
емоцій, у яких спостерігалась згрупованість помилок розпізнавання, рівень помилок 
вдалося знизити на 990 З 490 (р « 0,05). 

Простежується відносна згрупованість помилок результатів, проте її амплітуда 
значно зменшилась, що може свідчити про доцільність використання семантичного 
аналізу як удосконалення методу розпізнавання проявів емоцій. 

Висновки 

У статті запропоновано удосконалення методу розпізнавання емоцій за 
голосом за рахунок розширення множини ознак емоцій. Семантична ознака тону 
висловлювання дозволила знизити помилку розпізнавання груп близьких за 
ознаками емоцій. Продовженням даної роботи може стати розширення множини 
емоцій, дослідження робастності удосконаленого методу на великій тестовій 
множині, а також реалізація повної системи розпізнавання емоцій за голосом із 
використанням локального методу розпізнавання тексту. 
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КЕ5ОМЕ 


М.5. КіутепКо 

Птргоуеа пеодй ої етобопа! сопаїйоп гесоєпігіпє Бу уоісе ц5іпе 5епапііс 
апаїузія ої сопіепі 

Тре агисіє дез8сгібе5 Ше ітргоуетепі ої Ше теод їог епойопа! сопдїйоп 
гесоєпіліпя Бу уобісе. ТБе апаЇу5і5 ОЇ ууеакпе55е5 ої ехі5йпя тео їог епойопаї 
сопаїйоп гесоєпіліпе Бу уоісе 15 регіогтеа. ТПре апаїузі5 5Помеад Шаї Ше 5ег ої асоцяйс, 
рго5одіс апа ехігайпеціяйс сПагасіегівйся дое5 пої Бауме 5иййсіепі 5ерагайоп абійсу (о 
дезсгібе Ше Геашшге5 ої еттойоп5 іп Ше сгеакед зієп 5расе. 4 зиб5еїз ої етошоп5 Бауе 
Бееп іЧепіПеад Шаї Пауе а 5ієпійсапі сго55-5есопа! Геаште уаїшез. 

Тре Ївашге уесіог 15 ргорозеа іо бе ехрапаеа Бу Іваште ої апофег Кіпа Шаг Пауме 
пог уеє Бееп (аКеп їпіо ассоипі. Її 15 Ше 5ептапіїс сотропепі ої Ше зреесі їгаєтепі. ТПе 
и5е ої 5етапіїс апаЇу5і5 ПпуроїрейсаПу 5поцід пог опіу іпсгеазе Ше ПпКкеппоод ої Фе 
гесоєпійоп ої сіо5е етойопа! пзапіїезкайопя. Ш мії аїзо аПому (0 гесоєпі/е офег 
етопопаї (опе5 (Пас аге деіегпаиїпед 50ЇеЇу Бу а соп5і5(епі аз55е55тепі ої рго5одіс апа 
зетапійся (ог ехатріе, питог апа 5агсазт). ТПе гедиїгетепіє їог пподфійсацоп ої Фе 
гесорпійоп 5у5іепта 58ігисішге аге Фе5сгібед. ТПе 5срета ої опіоіоєу апа (егт Чаїабазе 15 
ргорозед. ТБіз 5ігисіиге айоуу5 іо дегегтіпе фе Беїопбіпе ої (Де 5(агетепі (0 Ше 
тапіїевіайоп ої епойопя, пої опіу ассогаїпе іо сегіаїп сопсеріз (ог (егт5 гергезепіеа Бу 
Фет). 5исп ап арргоасіп 5Поцід іпсгеаз5е Ше 5ерагайоп абійсу ої 5еттапіїс апаЇузіє ої 
етопопаї! папіїе5:ацоп. 

Тре питегіс гезеагсп атопо Ше Шаєбтепіз ої 20 зреаКег5 5ром/ед ап ауегаєе 
ргобабійсу ої етплойоп гесоєпійоп ої 399 -- 69 (р 40.05) етобйопа! папівезгайоп5 оп ре 
5ес ої 20 вреаКег58, уПпісП ехсеедз Ше 5іпліаг гезиіїв ої гесоєпійоп міфоці зетапіс 
апаЇузіз ої 5реесП. 
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